最好的SWE-bench Verified AI工具模型_精選SWE-bench Verified資訊

AI資訊

基準測試不等於真實能力?研究稱AI代碼“通過率”或被高估最高達7倍

研究指出，SWE-bench Verified基準測試可能高估AI編程能力。該測試中被判“通過”的AI代碼方案，約一半在實際項目審覈中會被拒絕，顯示自動化評測與真實工程質量存在明顯差距。這一發現對AI輔助軟件工程評估標準提出了重要質疑。

MiniMax M2.5 開源低成本 Agent 時代來臨

MiniMax 發佈 M2.5 模型，這是其 M2 系列在 108 天內的第三次升級。模型開源權重同步上線魔搭 ModelScope，在編程、搜索、辦公等多場景表現領先，實現了能力、效率與成本的三重突破。該版本提供從零代碼使用到私有化部署的全流程方案，並附有工具調用與推理參數調優的實戰指南，旨在推動低成本 Agent 時代的到來。M2.5 在多項評測中成績突出，例如在 SWE-Bench Verified 中表現亮眼。

17.8k 1 小時前

14天突破百萬下載!智譜 GLM-4.7-Flash 領跑開源大模型 SOTA

智譜AI開源模型GLM-4.7-Flash發佈兩週，在Hugging Face下載量突破100萬。這款30B-A3B混合思考模型性能強勁，在SWE-bench Verified和τ²-Bench等測試中，綜合表現超越gpt-oss-20b及Qwen3-30B-A3B-Thinking-2507，在同尺寸模型中領先。

11.9k 4 小時前